基於反轉檔查找與最佳片段選取演算法的中文語音合成系統 (A Mandarin Text-to-speech System based on Inverted File Indexing and Unit Selection) [In Chinese]

نویسندگان

  • Cheng-Yuan Lin
  • Ming-Feng Hsieh
  • Kuan-Ting Chen
  • Jyh-Shing Roger Jang
چکیده

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

完全基於類神經網路之語音合成系統初步研究 (A Preliminary Study on Fully Neural Network-based Speech Synthesis System) [In Chinese]

A Preliminary Study on Fully Neural Network-based Speech Synthesis System 廖書漢 SHU-HAN Liao ,蔡亞伯 YaBo Chai , 廖元甫 a Yuan-Fu Liao, a 國立台北科技大學電子工程系 [email protected], [email protected], [email protected] 摘要 傳統的語音合成使用先文字分析後語音合成的架構,但是這種兩階段的作法, 通常會有,若前級分析錯誤,就會影響後級合成,且無法挽救的問題。因此,在 本論文中我們希望嘗試把前後級,全部都改成以類神經網路實現,以便將來可以 直接合成一個大的端對端語音合成類神經網路。主要的想法是,直接以字元串為 輸入單位,並盡量用大量未標記語料,進行非監督式類神經網路訓練。我們的系 統包含四個子網路,分...

متن کامل

基於卷積類神經網路之廣播節目音訊事件偵測系統 (Automatic Audio Event Detection of Broadcast Radio Programs Based on Convolution Neural Networks) [In Chinese]

廣播電臺節目中通常包含語音,音樂與其他音訊事件(如笑聲或特效聲)。若能偵 測並切割這些音訊事件,就能進一步對廣播節目進行加值運用。例如,轉寫語音片段的 逐字稿,或是辨認音樂片段的歌名與曲名,以利檢索。針對此問題,在本論文中,我們 首先設計,並以人工標註出一廣播節目音訊事件資料庫,再利用 Convolutional Neural Network (CNN)自動擷取有效的特徵音訊參數,對廣播電臺的音檔做音訊事件偵測與切 割,最後轉成具時間資訊的音訊事件標註檔。實驗方面我們從教育電臺節目中,選出新 聞類與不同性質的談話類節目共 14 個,經人工標注後,獲得總長度共約 60 小時的音 檔,並用來訓練與測試 CNN和傳統 Gaussian Mixture Model(GMM)的效能。實驗結 果顯示以 CNN直接搭配頻譜參數,在偵測語音與非語音,音樂與非音樂或其它與非其 它音訊事件等的錯誤率(e...

متن کامل

結合HMM 頻譜模型與ANN 韻律模型之國語語音合成系統 (A Mandarin Speech Synthesis System Combining HMM Spectrum Model and ANN Prosody Model) [In Chinese]

本論文研究了一種結合 HMM (hidden Markov model)頻譜模型與 ANN (articifical neural network )韻律模型的國語語音合成系統。在訓練階段,對各個訓練語料音框算出 DCC係數(discrete cepstrum coefficients),以作為頻譜特徵參數,接著對於一種音節的多 個發音,依 DTW (dynamic time warping)匹配出的頻譜演進路徑作分群,各群建立一個 HMM,並記錄各音節發音的文依性資訊。在合成階段,首先依據文依性資訊挑選出輸 入文句各音節的 HMM模型,接著判定音節 HMM的各個狀態為無聲、或有聲,然後使 用音長 ANN模型及狀態平均音長來決定 HMM各狀態應該產生的音框數。除了前人提 出的MLE(maximum likelihood estimate)法,我們另外研究二種內插方法來產生各音框的 D...

متن کامل

使用韻律階層及大量詞彙的中文文轉音系統 (A Mandarin Text-to-Speech System Using Prosodic Hierarchy and a Large Number of Words) [In Chinese]

余明興、張唐瑜、許燦煌、蔡育和 國立中興大學資訊科學所 [email protected], [email protected], [email protected], [email protected] 摘要 本論文實作了一個中文的文轉音系統(Test-to-Speech)系統,它使用大量的詞彙來做為合成單 元(Synthesis units),並且配上適當的韻律階層。韻律階層可以使語意更加清晰,也可以幫助選取 適當的合成單元。因此本篇論文主要包含兩個重點:韻律階層的求取和以大量詞彙作為合成單元 的架構,在韻律階層的求取上,我們實驗了利用剖析器為基礎的方法以及著名的統計式方法 -CART(Classification And Regression Trees)來進行求取。我們使用大量詞彙來當成我們的合成單 元,可以免去許多語音處理不易...

متن کامل

整合邊際資訊於鑑別式聲學模型訓練方法之比較研究 (A Comparative Study on Margin-Based Discriminative Training of Acoustic Models) [In Chinese]

鑑別式聲學模型訓練在近代自動語音辨識(Automatic Speech Recognition, ASR)中扮演 重要的角色。在許多基於不同思維且能有效地提昇辨識率的鑑別式聲學模型訓練方法陸 續被提出後,對於訓練方法的相關推廣與改進便如雨後春筍般地興起;而這些方法在本 質上,皆是在描述訓練語句與語音辨識器所產生對應詞圖(Word Graph)之間的關係。本 論文首先將統整與歸納近年來所發展的多種鑑別式聲學模型訓練方法,並以三種最具代 表性鑑別式訓練方法:最小化分類錯誤(Minimum Classification Error, MCE)、最大化交 互資訊(Maximum Mutual Information, MMI)、最小化音素錯誤(Minimum Phone Error, MPE)為範例,透過有系統地轉換與化解方程式,得到聲學模型訓練準則的共通表示函 數型態。我們可以發現到,對於...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2004